Introduccion

Los datos obtenidos de Kaggle tienen la informacion atmosferica de varios años en australia, datos en los que viene incluida desde la velocidad del viento hasta la temperatura, en total 23 variables recogidas durante varios años en distintas ciudades de australia con las que se obtienen un data set de 140.000 lineas aproximadamente.

Nuestro objetivo será predecir la lluvia del dia siguiente con los datos metereologicos del dia.

Primeros pasos sobre nuestro Dataset

Con este dataset tan grande lo primero que nos planteamos fue centrarnos en dos cosas

-Utilizar una zona concreta de australia, sacada de la variable localizacion, de la cual elegimos 4 ciudades situadas en la costa sureste de Australia y -Utilizar la variable temporal de alguna forma, ya que considerabamos que tenia importancia pero no podiamos usar cada dia del año como un dato diferente, por lo que decidimos obtener apartir de la fecha la estacion del año en la que estaba cada linea,

EDA

## # A tibble: 6 x 25
##   Date       Season Location MinTemp MaxTemp Rainfall Evaporation Sunshine
##   <date>     <chr>  <chr>      <dbl>   <dbl>    <dbl>       <dbl>    <dbl>
## 1 2008-02-01 summer Sydney      19.5    22.4     15.6         6.2      0  
## 2 2008-02-02 summer Sydney      19.5    25.6      6           3.4      2.7
## 3 2008-02-03 summer Sydney      21.6    24.5      6.6         2.4      0.1
## 4 2008-02-04 summer Sydney      20.2    22.8     18.8         2.2      0  
## 5 2008-02-05 summer Sydney      19.7    25.7     77.4        NA        0  
## 6 2008-02-06 summer Sydney      20.2    27.2      1.6         2.6      8.6
## # … with 17 more variables: WindGustDir <chr>, WindGustSpeed <dbl>,
## #   WindDir9am <chr>, WindDir3pm <chr>, WindSpeed9am <dbl>, WindSpeed3pm <dbl>,
## #   Humidity9am <dbl>, Humidity3pm <dbl>, Pressure9am <dbl>, Pressure3pm <dbl>,
## #   Cloud9am <dbl>, Cloud3pm <dbl>, Temp9am <dbl>, Temp3pm <dbl>,
## #   RainToday <chr>, RISK_MM <dbl>, RainTomorrow <chr>
##  Dimensiones dataset train:  9824 25
##  Dimensiones dataset test:  1228 25
##  Dimensiones dataset validación:  1228 25

Antes que nada, visualizamos información básica de las ciudades elegidas y estaciones. Cómo están relacionadas con RainToday y con la variable de salida RainTomorrow.

Realizamos un conteo del número de días que han llovido o no en cada una.

Si filtramos por los días en los que sí llueve (RainToday = 1), vemos las veces que ha llovido el día siguiente o no.

Vemos que en Adelaide, Canberra y Melbourne no suele ser fuecuente que llueva el día siguiente si ha llovido hoy. En Sydney en cambio, es más fequente que llueva si ha llovido el día anterior.

Representamos ahora los días que han llovido en función de las ciudades y las estaciones del año.

En Adelaide y Melbourne las estaciones sí influyen más en la fecuencia de días que llueven, mientras que en Sydney y Canberra suele ser más homogénero.

Variables

Analizamos las variables individuales por separado con distintos gráficos.

En este dataset hay muchos pares de variables que están fuertemente relacionadas, por ejemplo la temperatura máxima y mínima de un día, o la presión a las 9 de la mañana y la presión a las 3 de la tarde. Por ello, en el análisis individual de variables se estudiarán a la vez por una mejor comprensión.

MinTemp y MaxTemp

Temperatura mínima

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   -8.00    7.90   11.60   11.44   15.50   33.90       9

Temperatura máxima

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    4.10   17.10   21.40   22.01   26.10   45.80       8

La temperatura mínima se podría asimilar a una distribución normal. La temperatura máxima tiene una cola a su derecha en la que aparecen mútliples valores atípicos.

Temp9am y Temp3pm

Las variables Temp9am y Temp3pm son muy parecidas a las temperaturas máximas y mínimas. Temperatura 9am

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   -1.30   11.70   15.40   15.55   19.30   38.60      24

Temperatura 3pm

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    3.70   15.90   20.00   20.56   24.50   44.70      17

Estas variables tienen un comportamiento parecido a la temperatura mńima y máxima respectivamente.

Pressure9am y Pressure3pm

Presión a las 9am

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   982.3  1013.6  1018.6  1018.5  1023.5  1040.2     201

Presión a las 3pm

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   985.5  1011.4  1016.3  1016.2  1021.1  1037.8     196

Parecen tener una distribución normal ambas variables.

Humidity9am y Humidity3pm

Humedad a las 9am

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   982.3  1013.6  1018.6  1018.5  1023.5  1040.2     201

Humedad a las 3pm

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   982.3  1013.6  1018.6  1018.5  1023.5  1040.2     201

Cloud9am y Cloud3pm

Nubes a las 9am

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.000   2.000   6.000   4.694   7.000   9.000    4111

Nubes a las 9am

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.000   2.000   5.000   4.696   7.000   8.000    4298

WindSpeed9am y WindSpeed3pm

Velocidad del viento a las 9am

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    0.00    7.00   11.00   13.27   19.00   63.00     207

Velocidad del viento a las 9am

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    0.00   13.00   19.00   18.82   24.00   65.00     199

WindDir9am y WindDir3pm

WindGustDir: The direction of the strongest wind gust in the 24 hours to midnight. WindGustSpeed: The speed (km/h) of the strongest wind gust in the 24 hours to midnight.

Velocidad más fuerte del viento

## [1] ""
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   11.00   31.00   39.00   40.64   48.00  106.00    1104

Analizamos cuatro variables que no están, a priori, relacionadas por pares.

Risk_mm, Rainfall, Evaporation, Sunshine

RISK_MM

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   0.000   2.164   0.800 119.400

Rainfall

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.000   0.000   0.000   2.165   0.600 119.400     181

Velocidad de Evaporation

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##   0.000   2.400   4.200   5.018   6.800  43.400    2493

Horas de Sunshine

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
##    0.00    4.10    7.90    7.15   10.20   13.90    2667

Análisis multivariables

Analizamos la relación unas variables con otras.

Gracias a este gráfico demostramos que los pares de variables citados sí están fuertemente relacionados. Por ejemplo, la presión a las 9 de la mañana con la presión a las 3 de la tarde: si una aumenta, la otra también. Destacar que también hay correlaciones inversas: cuando aumenta la variable Sunshine, disminuye la Cloud9am.

Analizamos en general la relación entre las variables con las estaciones, la variable de salida (RainTomorrow) y las ciudades. Para ello seleccionamos una de las variables de los pares y el resto. Las variables Rainfall y Risk_mm no las mostramos pues su distribución es difícil de visualizar. Se analizarán posteriormente con las transformaciones.

Relaciones por estaciones.

La Temperatura (MaxTemp, Temp9am), la presión (Pressure3pm) y evaporación muestran un claro comportamiento diferente según la estación.

Relaciones por ciudades.

La temperatura es la variable dónde se puede observar más claramente que tiene un comportamiento diferente para cada ciudad.

Relaciones por RainTomorrow, si llueve o no.

Las variables interesantes a analizar con más detalle son: la temperatura, la humedad, la presión y los rayos de sol.

A partir de estas relaciones, indagamos con más detalle las relaciones que parecen interesantes.

Las cuatro variables de temperatura son muy parecidas, como puede observarse en sus distribuciones:

Al estar relacionadas y tener un comportamiento similar posteriormente se estudiará introdudir al modelo interacciones entre éstas.

Veamos cómo se comporta una de ellas según las estaciones y ciudades:

Comprobamos que los pares de temperaturas están fuertemente relacionados.

Analizamos otras variables más en detalle.

Veamos cómo se comporta la presión según las estaciones y ciudades:

Comprobamos cómo de relacionadas están las variables de presión entre ellas.

Veamos cómo se comporta la humedad según las estaciones y ciudades:

Comprobamos cómo de relacionadas están las variables de humedad entre ellas.

Veamos cómo se comporta la evaporación según las estaciones y ciudades:

Veamos cómo se comportan las horas de sol según las estaciones y ciudades:

Veamos cómo se comporta la velocidad del viento según las estaciones y ciudades:

Veamos cómo se comportan las nubes del viento según las estaciones y ciudades:

Veamos cómo se comportan la velocidad del viento y su dirección según las estaciones y ciudades:

Añadir estos gráficos (Rainfall y RISK_MM) después de analizar las transformaciones.

Lo mismo para RISK_MM